名 字 艇 入 向 量 方法 、 
MEF 


( 微 博 , cangping@staff-weibo.com, cphe@lsec.cc.ac.cn) 


许 涛 


(曙光 信息 产业 (北京 有限 公司 , xutao@sugon.com) 


摘 要 
在 进入 推荐 系统 之 前 ， 商 品名 、 人 名 等 实体 名 字 需 要 戏 入 低 维 向 量 。word2vec 这 样 的 流行 嵌入 算 
法 的 出 发 点 是 “相同 语法 位 置 上 的 词 具 有 相似 的 向 量 ”, 而 名 字 序 列 没有 语法 结构 ， 导 致 名 字 向 量 的 质 
量 不 高 。 本 文 从 “ 相 邻 的 名 字 有 具有 相似 的 向 量 ” 出 发 , 提出 一 个 称 为 名 字 诅 入 的 新 方法 。 名 字 骨 入 使 
了 一 些 新 技巧 : 公式 比 word2vec 更 简单 ,向量 模 长 固定 为 1、 用 相对 权重 处 理 低频 名 字 、 优 化 目标 使 
简单 的 均 方差 。 以 名 字 相 似 度 作 为 衡量 标准 , 在 NBA 球 队 名 人 造 集 、 球 队 名 微 博 集 和 微 博 点 赞 集 上 ， 
名 字 杉 入 均 显著 优 于 word2vec。 
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Abstract 
Before entering a recommender system, an entity name must be embedded into a vector. Some 
popular models, such as word2vec, are based on the principle “words which are in the same syntactic 
position should embedded into similar vectors” . However, sequence of entity names has no syntac- 


tic structure, which led to the low quality of name vectors. Based on the principle “neighbouring 


names should embedded into similar vectors” , this paper proposes a novel algorithm named name2vec. 
Name2vec has some new features: vector length equals 1, relative weight which has solved the low fre- 
quency problem, optimization objective function is mean square error rather than cross entropy. The 
quality of embedding is measured by the similarity entity names. On there datasets from WEIBO.COM, 
name2vec has a better performance than word2veec. 
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1. 引言 与 相关 工作 


当前 推荐 系统 已 经 广泛 使 用 深度 学 习 技术 ， 商 品名 、 单 词 、 用 户 名 、 人 名 、 地 名 、 机 构 名 等 
名 字 ,， 都 需要 先 庶 入 低 维 向量 ， 然 后 才能 喂 给 神经 网 络 。 本 文 将 这 个 嵌入 操作 称 为 名 字 矢 入 , 将 
得 到 的 向 量 称 为 名 字 向 量 。 通 过 计算 名 字 向 量 之 间 的 相似 度 ,， 可 以 向 用 户 推荐 商品 ,推荐 同类 型 
的 博 主 , 找 出 内 容重 复 的 微 博 。 例 如 在 电 商 场景 下 , 用 户 浏览 商品 “YSL 小 金条 口红 ”时 , 为 其 推 
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来 去 之 间 @ 


荐 相似 的 商 
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些 相 关 用 户 ( 图 1)。 


常用 的 名 字 先 入 方法 有 几 个 。 和 矩阵 分 解 算法 趾 同 时 得 到 用 户 据 
也 能 够 得 到 名 词 的 向 量 ; 
; Attentive Item2vec 外 在 item2vec 的 基础 上 添加 了 湛 


来 为 机 器 翻译 设计 , 但 它 
就 得 到 了 item2vec B 
ARARE, 用 节 
机 游 走 生成 序列 ， 
节点 相似 度 。 
将 word2vec 类 算法 应 用 到 实体 名 字 上 时 ， 


图 1: 微 博 的 “相关 


; 在 微 


移动 互联 网 分 析 师 
粉丝 : 120 万 


YOO 


A 


LP” HEA 


博 场 景 下 ， 用户 搜 索 博 主 “来 去 之 间 ” 时 , 为 其 推荐 


与 词 之 间 的 前 后 顺序 不 可 随意 调换 。 依 靠 
同 词 映射 为 相似 的 向 量 。 但 是 ,名 字 序 列 中 并 没有 语 


如 “你 


AZ RS A” 
而 在 电 商 APP 上 的 4 个 商品 名 “YSL 小 金条 口红 . 带 
览 都 不 算 错 。 


量 和 物品 向 量 ; word2vec 四 本 
将 word2vec 应 用 于 物 品 集合 , 并 取消 训练 窗口 ， 


FE 意 力 。 在 图 神经 网 络 中 , 节 


点 向 量 之 间 的 距离 反映 节 间 之 间 的 连接 关系 。 图 艇 入 算法 DeepWalk |! FH pë 
再 用 word2vec 的 skip-gram 模 型 生成 节点 向 量 ; LINE 回 和 node2vec 四 重新 定义 了 
阿里 巴巴 使 用 用 户 浏览 的 商品 序列 和 元 信 ， 


息 为 10 亿 级 商品 建立 向 量 回 。 


会 有 一 个 问题 : 自然 语 


序列 中 的 .是 显 式 空 格 ， 月 


和 捉 这 个 结 


ER], ，word2vec 才 能 
吾 法 结构 ,名字 的 先后 顺序 可 以 随意 调换 。 例 


言 句 子 内 部 有 语法 结构 ， 词 
将 同一 个 语法 位 置 上 的 不 


这 个 自然 语言 句子 中 的 4 个 词 的 前 后 顺序 是 固定 的 ， 改 变 顺 序 后 就 是 病句 。 
带 皮 腰果 . 白 腊 木 餐桌 -五 仁 月 饼 ”， 
HR a} Bis tel Be Fo 
自然 语言 句子 中 的 词语 相似 , 判断 依据 是 它们 处 在 相同 的 语法 位 置 ; 而 实体 相似 的 判断 依据 


按 任 意 顺 序 浏 


它们 经 常 相 邻 出 现 ， 如果 在 用 户 的 浏览 序列 中 , “保温 谈 ” 的 前 后 多 次 出 现 “ 保 温 瓶 ”， 那么 可 


以 猜测 二 


些 新 的 技巧 : 


应 一 个 向 量 ， 


像 word2vec 那 样 使 用 向 量 内 积 


者 是 相似 的 商品 。 
本 文 从 “ 相 邻 的 名 字 具 


有 相似 的 向 量 ” 出 发 ， 


设计 一 个 新 的 名 字 


RRA GUE 


该 算法 采用 了 一 


名 字 向 量 的 模 长 均 为 1， 不 像 word2vec 那 样 允许 向 量 模 长 大 幅 变 化 ， 每 个 名 字 只 对 


不 像 word2vec 那 样 需要 额外 的 辅助 向 量 ; 优化 目标 使 用 向 量 夹 角 余弦 的 均 方差 , 不 
日 名 字 相 对 权重 来 解决 低频 名 字 被 高 频 名 字 带 偏 问 题 


不 像 word2vec 那 样 随 机 跳 过 高 频 单词 。 


间距 离 与 球 队 对 阵 关 系 图 
在 这 3 个 序列 集 上 , 名 字 杠 入 的 表现 均 超过 word2vec. 

本 文 后 续 内 容 这 样 组 织 。 
的 计算 方法 ， 


5TA H wy bh3 个 序列 集 


记名 字 序 列 集 为 5$, 5S 包含 若干 个 名 字 序 列 ， 


WAD, Els HI 
一 个 示例 序列 集 


ELH; 月 


在 NBA 季 后 赛 球 队 名 人 造 集 
符合 恨 好。 在 微 博 点 赞 集 上 ， 名 字 向 量 间 


见 过 的 所 有 名 字 的 集合 。 


R, HOT AAAS 


2. AFRA 


每 个 序列 的 长 度 大 于 等 于 2。 序列 集 5 对 应 的 字典 
字典 中 的 名 字 个 数 记 为 n。 
SA: { 雄 鹿 魔术 , RMR, 步行 者 .热火 -步行 者 ,步行 者 .热火 .步行 者 . 雄 


aE A-S REH 


、 球 队 名 微 博 集 上 ， 名字 向 量 
现 和 矩阵 相 吻 合 。 


第 2 节 和 第 3 节 给 出 了 名 字 杠 入 算法 的 具体 公式 ， 第 4 节 是 名 字 权 重 
上 的 实验 结 
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Be, T6A IL AFA TOA, 快 船 .独行 侠 . 快 船 .独行 侠 . 快 船 .独行 侠 ., 快 船 .独行 侠 } 。 字 典 万 为 : { 雄 
询 , 魔 术 , 步 行者 ,热火 ,76 人 , 凯 ies 独行 侠 , 快 船 } ， 名字 个 数 n = 8. 

名 字 骸 入 的 目标 是 将 任意 名 字 u © D 均 映射 到 一 个 实数 列 向 量 v © R”, m 是 任意 指定 的 正 整 
Z, 约束 条 件 是 lloll = 1， 即 wv 为 单位 向 量 。 将 字典 DD 中 名 字 对 应 的 n 个 向 量 分 别 记 为 v1,v2,.…. ,vn。 
这 n 个 列 向 量 从 左 到 右 排 列 , 组 成 一 个 大 小 为 m x n 的 矩阵 V， BIV = (v1,v2,...,vn)。 对 任意 给 定 的 
正 整 数 , 将 任意 给 定 的 k 二 2 元 组 记 为 0 = (wu ;Upj2), 这 里 的 wi 称 为 正名 , (wo,43,.…. ,Up41) 称 
为 上 下 文 ， us42 称 为 负 名 。 (uz, U2, U3;.…. Uk41) 对 应 名 字 序 列 中 的 一 个 片段 ， 负 词 通过 负 采 样 算法 
生成 ， 具 体 生 成 方法 见 第 5 节 。uw,ua ,uk 分 别 拥有 实数 权重 wz,wk 0 < wi < 1,i = 
1,2,...,k+ lo 

当 k = 2 时 的 一 个 示例 为 : U = (PR, AK, HER, AITA), w, wo, w348) 0.67, 0.33, 0.67. 

为 简化 公式 ， 令 aj = Bm) 了 一 2,3,. k+l. 


max(w1,w;)? 


按照 深度 学 习 模型 的 套路 ,在 k 十 2 元 组 U 上 设计 一 个 目标 函数 : 


a k+1 


= 2 a; (vz; vj — 1)? +5 5 vp vere +1)? + (vT vere +1) (2.1) 

j= 

X HLA IE BCA HS Be. FP GSES E EA H ts R A 

H(S) = 》 (UV). (2.2) 

Ues 

求解 最 优化 问题 BEA ST) E ZL at) BEV * 
ve = en H(S) (2.3) 

E€ mxn 
s.t. vill = 1,2 =1,2,...,n. 


U 上 的 损失 函数 用 来 观察 训练 过 程 中 的 收敛 性 , 不 能 包含 随机 因素 , 不 能 直接 使 用 优化 目标 
函数 式 (2.1D)， 但 又 要 与 式 (2.1) 保 持 一 致 , 因此 这 样 定义 : 


k+1 k+1 
We = So (wv; — 1)? = Sor (2.4) 
这 里 的 8; = vfv; 一 1。 序 列 集 5 上 的 整体 损失 函数 为 
= 5 (U). (2.5) 


UES 


使 用 最 速 下 降 法 等 算法 求解 式 (2.3) 时 ,需要 目标 函数 的 偏 导数 , 这 里 一 并 列 出 。 令 


B; = viv;—1, j=2,3,...,k+1, 
Vj = vivrr2t+l, j=2,3,...,k+1, 
0 = vi vit 1, 
则 有 
Oh(U 2c < 
vı m 
2c 
— 3 QjPBiv; + 20vk+2. (2.6) 


j=2 
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对 Vi = 2,3,...,k +1, 


Oh(U 2 2 
£ ) = Tivo = 1)v1 十 FE (VF ta 十 1)Uk+2 
2c 2 
= Ebiv 十 EVEt2. (2.7) 
Oh(U) = 2c 5 Q (uly 一 1)v; 十 2(viv +1)v 
Du k = 了 “了 “十 2 j 1 Uk+2 1 
2c H 
= 二 > TU 十 20v1. 
j=2 


3. 二 元 序列 上 的 名 字 藤 入 算法 


在 有 些 场景 下 , 序列 集 5 中 的 每 个 序列 仅 包 含 2 个 名 字 , 例如 微 博 用 户 之 间 的 点 赞 关 系 ( 详 见 
见 第 6 节 )。 此 时 ,训练 所 用 的 十 2 元 组 退化 为 3 元 组 ,名 字 骨 入 算法 公式 也 有 了 相对 简单 的 形式 ， 
列 出 如 下 。 

Qa = 于 Ee ,优化 目标 函数 式 (2.1) 退 化 为 


max (wi, w2) 


h(U) = calvT vz 一 1) 十 (vI v3 十 1) 十 (v4 v1 +1)’. (3.1) 


SB = vv — 1,y = vvs +1, 0 =vfv, +1. 偏 导数 式 (2.6-2.8) 分 别 退 化 为 


Oh(U 
) = 2ca(uf ve — 1)v2 + 2(v3 vı + 1)v3 = 2caßvz + 20v3, 
1 
Oh(U 
- ) = 2ca(uf ve — 1)wı 十 2(od v3 + 1)v3 = 2caBv, + 2yv3, 
2 
h 
PAU) = 2(v3 v3 + 1)v3 十 2(od v 十 1)v1 = 27V2 十 2004. 
3 


损失 函数 式 (2.4) 退 化 为 


= a(o — 1)? = vals}. 


4. 名 字 权 重 


很 多 推荐 场景 中 都 有 长 尾 现象 , 小 部 分 名 字 出 现 次 数 高 ， 称 为 高 频 名 字 ; 大 部 分 名 字 出 现 次 
数 低 ， 称 为 低频 名 字 。 高 频 名 字 与 低频 名 字 相 邻 时 ,会 有 问题 

假设 名 字 wi、ws 和 ws 在 序列 集 5 中 的 出 现 次 数 分 别 为 100、2 和 3, wi 和 ws 的 相 邻 次 数 为 1, wo 和 ws 的 
相 邻 次 数 为 1 ( 见 表 1)。 对 wi 来 说 ， 只 有 1% 的 比例 与 wz 相 邻 ， 那么 两 个 名 字 的 向 量 w1 与 v2 应 该 相互 
远离 ; 对 ww 来 说 , SOHN te Gui the, 那么 两 个 名 字 的 向 量 v2 与 v1 应 该 相互 接近 。 既 远离 又 接近 
矛盾 。 

对 uz 来 说 ,与 ui、us 相 令 的 比例 均 为 50%， v2 与 v1 之 间 的 距离 应 该 等 于 v2 与 v3 之 间 的 距离 。 根 
据 生 活 经 验 , wz 和 ws 应 该 属于 同类 , ui 属于 男 一 类 , v2 与 v3 相互 接近 并 远离 va。 又 一 个 矛盾 。 

产生 矛盾 的 根源 , 是 只 考虑 了 相 邻 名 字 的 一 方 , RETA H. 解决 矛盾 的 办 法 是 同时 考虑 
相 邻 名 字 双 方 的 出 现 次 数 ， 赋 与 它们 一 个 权重 。 名 字 权 重 的 定义 如 下 。 

对 Yi = 1,2,... n, 名 字 wi 在 序列 集 5 中 的 出 现 次 数 记 为 ,显然 > 1. WF = min(fi, fo,---,fn)e 
为 wi 定义 台阶 数 


万 二 六 BMP <f,<2t'F, j 为 下 整数 . 


N 
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表 1: 名 字 相 邻 次 数 


Ul U2 U3 


ui | 100 
U2 1 2 
U3 3 


表 2: 16 个 名 字 的 权重 , F=4,7=3 


名 字 wu; | RR | GWE, | 权重 w; | 名 字 w | RAS | GWE, | 权重 w; 
湖人 15 2 0.67 HE JEE 10 2 0.67 
拓 者 5 1 0.33 魔术 5 1 0.33 
火箭 12 2 0.67 步行 者 4 1 0.33 
TE 7 1 0.33 热火 15 2 0.67 
快 船 13 2 0.67 Ii 11 2 0.67 
独行 侠 6 1 0.33 Wb) 4 1 0.33 
掘 金 19 3 1.00 | 凯 尔 特 人 17 3 1.00 
ÑE 7 1 0.33 76 人 4 1 0.33 
SF = max(T1,72,---;Tr) 4 Fu MBE LN 


作为 示例 ,序列 集 表 3 中 名 字 的 权重 计算 过 程 见 表 2. 


5. 训练 过 程 


1. 预 处 理 序列 集 5。 确 保 同 一 个 序列 中 , 相 邻 的 名 字 不 相同 。 每 个 名 字 的 出 现 次 数 户 均 大 于 等 了 
BE, BAER CNSR. ABD ARIS AF. 


2. 对 ; =1,2,...,n, 计算 wi， 随机 初始 化 w。 指定 超 参 数 c, < 建议 取 值 范围 为 [L10]。 指定 一 个 窗 


宽度 。 


3. 在 序列 集 5 中 的 序列 上 滑动 窗口 ， 取 出 一 个 序列 片断 (us Uggs) Wega) XTE Ar Brt 
TARE D, EAE Fur Euk A ui = 1,2,...,k +1. WEA LIMP, BNA Bk + 
2 元 组 UV = (Up Ul UR, U2) Ul) Uk+2)o 当 序 列 长 度 为 2 时 , 假设 序列 为 (w1,w2)， 那 
么 及 十 2 元 组 为 U = (ui, wz,u3)， 这 里 的 us 通过 负 采 样 得 到 。 


4. 以 式 (2.1) 为 目标 函数 ,进行 1 次 最 优化 迭代 ， 更 新 1 次 v1,v2,.…. ,Vk+2. 


重复 步 又 3.4， 直 到 损失 函数 曲线 达到 满意 状态 。 当 损失 函数 曲线 发 生 震荡 时 ， 适 当 调 大 或 
者 调 小 学 习 率 。 


最 优化 的 目标 函数 形式 上 是 式 (2.2)， 在 得 到 所 有 序列 片断 上 的 偏 导数 之 后 再 整体 更 新 所 有 
的 w。 实际 使 用 的 是 式 (2.1), 得 到 每 个 序列 片断 上 的 偏 导数 之 后 就 更 新 涉 到 及 的 v;, 以 追求 更 少 的 
资源 消耗 和 更 短 的 训练 时 间 。 


ot 
lm 


6. 实验 


word2vec 应 用 广泛 。 论 文 辐 已 经 证 明 item2vec 在 物品 相似 度 方 面 的 表现 与 SVD 相 当 , 而 item2vec 
和 DeepWalk 均 是 借用 word2vec 的 skip-gram 模 型 , LINE 和 node2vec 的 目标 函数 中 也 采用 了 与 word2vec 相 
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Ds 


2: NBA 季 后 赛 对 阵 图 。 来 源 : BRA A APP. 


表 3: 球 队 名 人 造 集 
序列 重复 次 数 序列 重复 次 数 序列 重复 次 数 序列 重复 次 数 
湖人 .开拓 者 5 HEKE 7 步行 者 .热火 4 独 龙 . 凯 尔 特 人 7 
火箭 .雷霆 7 掘 金 . 快 船 7 雄 鹿 .热火 5 热火 . 凯 尔 特 人 6 
湖人 -火箭 5 WAME 5 ži JA PA 4 
快 船 .独行 侠 6 HE JE JER 5 凯 尔 特 人 .76 人 4 


同 的 向 量 内 积 。 因 此 , 本 节选 word2vec 作 为 对 照 基 准 , 训练 工具 为 python 模 块 gensim.models.fasttext 。 
oe 球 队 名 人 造 集 、 PRIA WOE. EE 

球 队 名 人 造 集 是 根据 2019-2020 NBA 季 后 赛 对 阵 关 系 〈 图 2) 制作 。 季 后 赛 是 7 场 4 胜 制 ， 对 阵 
的 2 支 球 队 最 多 打 7 场 ， 最 少 打 4 场 。 对阵 双方 的 名 字 组 成 一 个 序列 , 对阵 的 场 数 对 应 序列 的 重复 次 
A, 具体 见 表 3。 

名 字 柑 入 算法 的 配置 为 : 向 量 维 数 m = 2, c= 10, 最 速 下 降 法 学 习 率 0.001, 迭代 400 轮 。word2vec 算 
法 的 配置 为 : 向 量 维 数 2， 窗 口 宽 度 1， 词 的 最 小 次 数 min_count=1， 迭 代 2000 轮 。 所 得 16 个 向 量 的 
位 置 关 系 见 图 3， 图 中 圆周 半径 为 1。 图 3(a) 中 ，16 个 向 量 大致 分 为 4 组 : HAL Fae. Ka E 
霆 )、( 快 船 、 独 行 侠 、 掘 金 、 赤 士 )、( 雄 应 、 魔 术 、 步 行者 、 热 火 )、( 猛 龙 、 篮 网 、 凯 尔 特 人 、76 人 )， 
各 组 内 向 量 的 余弦 距离 较 小 , 各 组 之 间 向 量 的 余弦 距离 较 大 , 与 对 阵列 关系 (图 2) HWA. ose 
示 , 半 决 赛 时 , 湖人 对 阵 掘 金 、 热 火 对 阵 凯 尔 特 人 ; 在 图 3(a) 中 , 这 4 个 名 字 处 于 各 组 的 边缘 , 相互 
之 间距 离 较 近 , 正确 反映 了 对 阵 关 系 。 

word2vec 生 成 的 16 个 向 量 , 模 长 不 固定 , 将 它们 的 模 长 归 一 化 不 影响 相互 之 间 的 余弦 距离 。 观 
察 图 3(b)， 独行 侠 和 开拓 者 之 间距 离 很 小 , 但 实际 它们 并 没有 对 阵 关 系 , 与 图 2 不 符 。 还 有 其 它 不 
相符 的 关系 , 不 一 一 列举 。 

球 队 名 人 造 集 中 的 每 个 序列 都 仅 包含 2 个 名 字 , 只 测试 了 名 字 杉 入 算法 在 k= 1 时 的 表现 ,为 了 
测试 其 在 k > 2 的 表现 , 特制 作 球 队 名 微 博 集 。2019-2020 NBA 季 后 赛 的 比赛 日 期 为 20200816~20200930， 
在 此 期 间 ,16 支 球 队 的 微 博 官方 账号 持续 发 布 赛事 信息 。 将 这 些 博 主 名 称 、 微 博文 本 、 人 工 标 签 
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3: 球 队 名 对 应 的 向 量 。(a) 对 应 球 队 名 人 造 集 上 的 名 字 艇 入 ，(b) 对 应 球 队 名 人 造 集 上 
的 word2vec，(c) 对 应 球 队 名 微 博 集 上 的 名 字 岩 入 ，(d) 对 应 球 队 名 微 博 集 上 的 word2vec。 


收集 起 来 , 从 中 提取 球 队 名 序列 。 对 任意 给 定 的 一 条 微 博 , 将 球 队 的 别名 映射 为 简 名 , 例如 ,“ 湖 
人 队 ”、“ 洛 杉 矶 湖人 ”、“ 洛 杉 矶 湖人 队 ” 均 映射 为 “湖人 ”; 有 些微 博 以 视频 或 图 片 为 主 , 文本 
中 没有 球 队 名 , 那么 采用 人 工 标签 中 的 球 队 名 ; 如 果 球 队 名 只 包含 1 个 , 那么 将 博 主 对 应 的 球 队 名 
加 在 序列 的 头 部 。 共 得 到 序列 1706 人 个。 包含 2 个 名 ahaa 包含 3 个 名 字 的 序列 有 202 个 ， 
包含 4 至 8 个 名 字 的 序列 分 别 有 132 个 、10 个 、9 个 、 o 不同 对 阵 关 系 的 序列 数量 也 不 同 ， 见 
表 4, 最 大 数量 为 270, 最 小 数量 为 32, 相差 8.4 倍 。 ee 最 小 值 为 33( 魔 术 )， 
相差 17 倍 。 

名 字 和 嵌入 算法 的 配置 为 : 向 量 维 数 m = 2, c = 4, k= 2, BOE TAZ 0.0005, 2 
代 100 轮 。word2vec 算 法 的 配置 为 : 向 量 维 数 2, 窗口 宽度 1, 词 的 最 小 次 数 min_count=1, 迭代 1000 轮 。 
它们 生成 的 名 字 向 量 的 分 布 状态 如 图 3(c-d)。 图 3(c) 与 对 阵 关 系 相符 , 图 3(d) 没 有 区 分 出 4 个 组 , 与 
对 阵 关 系 不 符 。 

博 主 点 赞 集中 的 每 一 个 序列 均 有 2 个 名 字 组 成 , EO ARNE. 被 点 赞 的 博 主 名 。 序列 数 
量 1954241， 博 主 名 数量 60764， 博 主 名 频次 最 大 值 17476， 最 小 值 1， 头 部 集中 严重 。 名 字典 入 算法 
的 配置 为 : 向 量 维 数 m = 8, c= 10, 最 速 下 降 法 学 习 率 0.001, 迭代 5 轮 。word2vec 算 法 的 配置 为 : 向 
量 维 数 为 8, 窗口 宽度 1, 词 的 最 小 次 数 min_count=1, 迭代 5 轮 。 博 主 名 数量 多 , 无 法 展示 全 部 向 量 。 
这 里 取 前 100 个 博 主 名 的 向 量 , 计算 它们 之 间 的 余弦 距离 (图 4(a-p)), 然后 与 共 现 矩阵 (图 4(c)) 对 比 ， 
评估 向 量 的 优 劣 。 

WSS FED FE BE l(c), 博 主 名 3~43 之 间 关 联 密 切 , 博 主 名 3~43 与 博 主 名 44~52 联 系 稀 少 。 图 4(a) 中 ， 
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Be 4: 球 队 名 微 博 集中 样本 比例 


对 阵 关 系 数量 对 阵 关 系 数量 对 阵 关 系 数量 | 对阵 关 系 | 数量 
独行 侠 VS 快 船 270 雄 鹿 VS 热火 164 据 金 VS BE 74 | Evs 独 龙 | 41 
快 船 Vs 掘 金 219 步行 者 VS 热火 148 开拓 者 VS 湖人 61 | 魔术 VS HERE | 32 
凯 尔 特 人 Vs 热火 | 203 湖人 VS 火箭 129 湖人 VS 掘 金 52 
雷霆 VS 火箭 170 | 76 人 VS 凯 尔 特 人 | 9%8 | 独 龙 VS ILKA | 45 


A: 
应 word2vec，(c) 是 名 字 的 共 现 矩阵 。 


fe 3 


18 
16 
14 
12 
1 
08 
0.6 
0.4 
0.2 
0 
20 40 60 80 100 
(b) 


EM RSE, 名 字 向 量 之 间 的 余弦 距离 ， 


(a) 对 应 名 字典 入 算法 ， 


(b) 对 


博 主 名 3~43 之 间 的 距离 较 小 ， 即 较 多 的 蓝 色 ; 博 主 名 3~43 与 博 主 名 44~52 之 间距 离 较 大 ， 即 较 多 


的 绿色 与 黄色 , 与 共 现 和 矩阵 图 相 吻 合 。 图 4(b) 中 的 向 量 距 离 ， 看 起 来 像 随机 取 值 ， 没 


律 性 ， 与 共 现 矩阵 不 符 。 
综合 本 节 3 个 序列 集 上 的 实验 结果 , 可 以 得 出 结论 ， 名 字 髓 入 优 于 word2vec. 


名 量 模 型 均 为 1, 模型 压缩 时 的 损失 小 。fastText L101 对 词 向 量 缩 方法 是 , 将 相近 的 若干 个 向 量 


明显 的 规 


7. 总 结 与 讨论 


与 word2vec 相 比 ， 名 字 租 入 有 几 个 优点 。 
更 好 地 体现 名 字 之 间 的 相 邻 关系 ,第 6 节 的 实验 已 经 说 明了 这 一 点 。 


分 为 一 组 , 例如 64 个 , 然后 计算 这 组 向 量 的 中 心 点 。 使 用 时 , 用 中 心 蔡 代 这 64 个 向 量 。 这 个 蔡 代 操 


ESS) RE, 在 误差 绝对 值 一 定 的 情况 下 , 模 长 较 小 的 向 量 的 相对 误差 较 大 ， 导 致 不 同 向 量 的 
压缩 误差 不 同 。word2vec 产 生 


的 向 量 , 模 长 不 固 


定 。 在 博 主 点 赞 集 上 , word2vec 生 成 的 向 量 的 模型 


最 小 值 为 0.007， 最 大 值 为 6.982， 相 差 1004 倍 。 名 字 骨 入 生成 的 向 量 ， 模 长 均 为 1。 各 个 向 量 的 压缩 
相对 误差 不 会 相差 太 大 。 
训练 资源 开销 少 。word2vec 算 法 中 ,每 个 词 均 对 应 ?2 个 向 量 , 1 个 词 向 量 和 1 个 隐 向 量 , 名 字符 


入 算法 中 , 每 个 词 只 对 应 1 个 向 量 , 内 存 开 销 少 


半 。 在 word2vec 算 法 中 ,有 耗 时 很 多 e 指 数 运算 或 


a 


者 softmax 运 算 ; 名 字 骨 入 算法 只 


名 字 艇 入 算法 的 稳定 4 


简单 的 加 乘 运算 。 
生 、 收 敛 速度 、 高 性 能 的 代码 实现 还 有 待 进 


步 研究 。 
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